Evaluating AI-Simulated Behavior 關於 AI 模擬使用者的三項研究報告
Study 1: Survey-Based, Finetuned Digital Twins
基於調查的AI模型
實驗說明:
2024年,Kim和Lee研究了AI如何解決調查研究問題,使用了GSS資料(。他們微調LLM以處理通用語言關係並理解領域特定問題、個體和時間之間的聯絡。
研究用的是“通用社會調查” (General Social Survey,簡稱 GSS)的資料。自1972年起覆蓋6.9萬成年人這是美國一項非常有名的大型長期問卷調查。比如
- 政治立場(你支援哪個政黨?)
- 社會態度(你怎麼看同性婚姻、死刑?)
- 家庭與婚姻(你結過婚嗎?有幾個孩子?)
- 教育與收入(你的學歷、收入水平如何?)
- 宗教信仰(你信什麼宗教?你經常去教堂嗎?)
- 媒體使用、工作滿意度等等
整套問卷有3100多個問題,涵蓋幾十年來幾十萬人。所以這個測試的意思是:
- AI先“看”了一部分人對這些問題的真實回答;
- 然後,研究者故意把另外一些人的某些回答“蓋住”或抽掉,問AI:“你覺得這個人在這個問題上會怎麼回答?”
- 有時候他們還完全不給AI看某些新問題的訓練資料,就測試它:“你覺得這個人會怎麼回答一個從沒問過的問題?”
比如:
- 某人回答了“我信基督教”、“我每週去教堂一次”、“我支援共和黨”,然後AI被問:“那他是否贊成死刑?”這時候就能看出AI能不能根據已有的線索,合理推測這個人對另一個問題的看法。
這些問題都是真實世界中人們會被問到、也會真實回答的社會類問題,所以這個測試的設計很貼近現實,也比較嚴謹。
研究測試任務:
1. 缺失資料(Missing Data)
由於調查經常被跳題或中斷,導致資料不完整,影響統計分析的準確性。研究利用回填技術(backfilling),透過已有資料推測受訪者在未回答問題上的選擇。
2. 新問題(New Questions)
研究人員還測試了模型是否能在遺漏某些問題後,預測受訪者在這些新問題上的可能回答。
研究結果
1 個體層面的預測效果(Predicting Individual-Level Responses)
- 預測缺失資料的準確率高達78%,說明AI可以較好地還原個體對跳題或歷史問題的答案。
- 預測新問題時的準確率下降至67%,說明模型在未見過的問題上外推能力有限。
這種差距說明當前模型更擅長在已知語境中工作,但可能無法應對新的問題場景。
2 總體趨勢預測能力(Predicting Population-Level Trends)
Kim 和 Lee 分析了使用AI預測群體資料趨勢的能力。
- 在替代缺失資料時,相關性高(r=0.98)
- 在預測新問題時,相關性下降(r=0.68)
說明模型在處理歷史資料上表現優異,但預測新情境時能力仍有限。
3 子群體差異(Subgroup Variations)
模型對社會經濟地位較高(包括收入和教育)的人群以及白人群體的預測更準確。這一差異引發對模型公平性的擔憂:如果AI對邊緣群體表現不佳,可能會無意中加劇偏見。
4 上下文資料的影響(Effect of Context Size)
研究發現,在預測缺失資料時,即便刪除40%的訓練語料,模型的表現仍然很強。這表明模型在推理能力方面具備一定魯棒性,能從部分問捲回答中預測其他問題的回答,有助於減少調查流失。
Study 2: Interview-Based Digital Twins
基於訪談的AI
研究人員找了1,052名位美國成年人,和每個人都“聊了兩小時”,然後讓AI“扮演他們”,去回答各種問題,再和他們本人答的結果對比,看AI像不像他們。
實驗過程
1. 先做AI訪談
每個參與者都進行了一次長達兩小時的AI引導訪談,內容可能包括他們的性格、看法、經歷、喜好等。
- 比如AI會問:“你怎麼看待同性婚姻?”、“你工作滿意嗎?”、“你是一個外向的人嗎?”
- 訪談內容全都被記錄下來,變成一個“瞭解這個人”的檔案。
2. 用訪談內容訓練AI模型
研究人員把這些談話記錄餵給AI模型,讓它學會“模仿這個人”——也就是說,AI接下來要假裝是這個人,去參加一些測試。
3 為了驗證AI能不能代表這個人,他們讓AI和真人都做了以下三類任務:
1. 回答問卷(例如GSS題目)
比如:“你支援死刑嗎?”、“你信任政府嗎?”這類社會態度題。
- AI回答一次
- 真人自己也回答一次
- 然後比較兩者回答是否一致
2. 做人格測試(Big Five Personality Inventory)
這是一個測量“外向、宜人性、責任心、情緒穩定、開放性”五種人格維度的標準心理量表。看AI填出來的人格結果和真人是否匹配。
3. 玩經濟博弈遊戲(如獨裁者博弈、囚徒困境)
這是心理學中常用來測試“利他、自私、合作、信任”的實驗任務。
- AI根據任務規則做出選擇
- 真人也做一次
- 比較AI行為和真人的相似度
AI預測個體資料的能力(Predicting Individual-Level Data)
研究者對比了三種不同型別的AI模型:
- 訪談型模型:基於完整的AI與使用者的訪談內容建立
- 自述型模型:僅基於使用者寫的簡短自我介紹
- 基礎型模型:只使用年齡、性別和種族等基本個人資訊
不同模型在各項任務中的預測準確率
| 任務型別 | 訪談型AI模型 | 簡要自述模型 | 人口統計模型 |
|---|---|---|---|
| GSS問卷問題 | 0.85 | 0.70 | 0.71 |
| 大五人格量表(Big Five) | 0.80 | 0.75 | 0.55 |
| 經濟行為遊戲 | 0.66 | 0.66 | 0.66 |
- AI模型在問卷調查和人格測試中表現優秀,準確率超過80%,比其他兩種模型效果好得多。
- 對於經濟遊戲,三種模型效果差不多,這說明訪談內容對判斷價值觀和態度很重要,但對預測經濟行為影響不大。
- 有趣的是,即使把AI訪談內容刪減80%,準確率仍能保持在79%-83%之間,表明只需要關鍵資訊就能建立準確的AI模型。
AI預測群體水平的趨勢(Predicting Population-Level Effects)
AI模型和真人還參與了5個經典社會科學實驗,測試它們在整體資料層面的預測是否一致。
結果:
- 人類和AI都成功複製了5個實驗中的4個結果。
- 來自AI的資料與人類資料之間的效應量高度相似,平均相關性高達r=0.98。
- 說明個性化AI不僅可以預測個體行為,也能反映整體社會趨勢,具備學術研究價值。
訪談如何減少偏差(Interviews Reduce Bias)
研究用了一個簡單的測量方法,叫做"人口群體偏差差值"。這個指標用來看AI模型對不同人群(比如不同種族或政治立場的人)是否有公平對待。指標數值越低,說明AI越公平,對不同群體的預測準確度越接近。
中文表格:AI模型在政治與種族偏差上的表現
| 偏差型別 | 測試內容 | 訪談型AI模型 | 人口統計模型 | 偏差下降幅度 |
|---|---|---|---|---|
| 政治偏差 | GSS問題 | 0.079 | 0.124 | 下降36% |
| 大五人格(相關性) | 0.063 | 0.175 | 下降62% | |
| 經濟遊戲 | 0.190 | 0.500 | 下降62% | |
| 種族偏差 | GSS問題 | 0.020 | 0.033 | 下降38% |
| 大五人格(相關性) | 0.110 | 0.170 | 下降35% | |
| 經濟遊戲 | 0.040 | 0.043 | 下降7% |
AI模型在訪談後的偏差比只用基本人口資訊(如年齡、性別)的模型要小很多,特別是在預測政治觀點和性格特徵時。這表明透過更詳細的訪談內容,AI能更好地理解不同群體的特點,減少對社會偏見的放大。
Study 3: Synthetic Users
AI合成使用者群
來自威斯康星大學麥迪遜分校的Neeraj Arora團隊探討了大型語言模型(LLMs)如何在市場研究中應用,重點關注使用“合成使用者”進行群體預測的方式。
不再像前兩項研究那樣為每個個體定製AI模型,而是生成一大批擁有典型人口特徵的AI使用者(如年齡、性別、收入、教育等組合),來模擬整個群體。然後比較這些AI使用者的群體平均回答與真實人群的回答是否一致。
實驗過程
來自605名真實受訪者的市場調查,主題是:冷藏熱狗產品是否有吸引力。問卷內容包括:產品獨特性、喜好程度、購買意願(5分制)以及具體產品特徵評分(如健康、便利性、質量)
建立605個合成使用者,使其在人口特徵(性別、年齡、種族、城市或鄉村、教育等)上的分佈和真實受訪者匹配。
看合成使用者的群體平均回答(不是個體)與真實人群是否相似。
(How unique do you think the product is)
您認為該產品有多獨特)
實驗結果
| 問題(英文原文) | 真實使用者評分(Human Users) | AI合成使用者評分(Synthetic Users) |
|---|---|---|
| 你有多大可能會購買該產品? | 1.66 | 1.58 |
| 你有多喜歡該產品? | 1.43 | 1.40 |
| 你覺得該產品有多獨特? | 2.12 | 2.48 |
合成使用者的準確性還可以,但更適合用來預測整體趨勢
- AI合成使用者的回答和真實人類的回答差距不大,大方向基本一致。
- 研究者建議它適合用在研究初期或產品早期測試階段,但需要高精確度時要小心使用。
合成資料缺乏多樣性
- AI使用者的回答比較集中,變化範圍比真實使用者小。
- 表現為:AI使用者往往給出"中間"回答,很少有極端意見。
- 這在研究不同觀點、特殊偏好或小眾使用者體驗時可能會產生誤導。
三項研究的比較總結
- AI訓練用真實訪談和專業知識時,能很好地填補缺失資料和預測歷史回答。
- 簡單的提示方法比複雜的微調效果更好。
- 合成使用者可以顯示大概趨勢,但不能反映資料中的細微差別。
- 基於真實個人資料的AI(研究1、2)比基於人口特徵的AI(研究3)更準確預測行為。
- 所有AI模型都有偏見風險,但用真實訪談訓練的AI偏見較少。
限制與倫理問題(Limitations and Ethical Problems)
1. 準確性依賴多個因素:
AI模型的表現取決於使用者特徵、任務型別、模型輸入的上下文質量
對於設計團隊來說,需要識別哪些環節可以用AI模擬,哪些必須依靠真實人類
2. 提高真實感的同時,帶來新問題:
隨著AI回答越來越真實,必須反思:這些回答從哪來?是否經過使用者同意?
如果AI被用於使用者本人未授權的情境,可能導致誤解、操控或代理權被剝奪
3. AI不能替代人類:
研究明確指出:AI應該是對人類研究的補充,而非替代
即使AI能擴充套件研究範圍、填補缺失資料,它也無法真正還原人類的複雜性和不可預測性
TL;DR Summary 研究結論總結
1 AI能很好地模擬人類反應
AI能準確填補調查中缺失的答案,可以根據使用者之前的回答預測其他問題的答案,有助於解決調查中途放棄的問題。用訪談資料訓練的AI還能準確預測人們在問卷和行為遊戲中的表現。
2 基於訪談的AI模型效果更好
與只用基本使用者資訊(如年齡、性別)的模型相比,使用訪談資料的模型更準確,因為訪談提供了更詳細的使用者資訊。
3 AI模型存在偏差
AI預測的準確度會因使用者的經濟狀況、種族或政治立場而不同。研究發現AI對白人的預測更準確。使用訪談資料可能有助於減少這種偏差。
4 AI合成使用者不夠準確
AI合成使用者能反映人類行為的大致趨勢,但無法準確捕捉真實資料中的細微變化和影響強度。
5 AI模型的構建方法很重要
最有效的方法是採用簡單直接的方式,比如將大型語言模型(LLM)與豐富的訪談資料結合使用。